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Использование тезауруса предметной области 
как инструмента представления знаний 

при повышении эффективности проблемно- 
ориентированного поиска в \еБ 


Для того, чтобы повысить релевантность поиска информации в Интернете, предлагается использовать 
знания об информационных потребностях пользователя, отраженных как в описании стоящей перед 
ним интеллектуальной задачи, так и в его тезаурусе. Это позволяет делать предположения о тематической 
близости найденных в \еБ информационных ресурсов той предметной области, которая пертинентна 
проблеме пользователя. 


Введение 


В настоящее время главные направления развития информационных техно- 
логий (ИТ) связаны с созданием интеллектуальных информационных систем, основанных 
на извлечении и обработке знаний в соответствующих предметных областях (ПрО). 
Однако средства, предназначенные для представления знаний, еще недостаточно совер- 
шенны, и это часто заставляет людей вновь и вновь искать решения одних и тех же задач. 

Одной из наиболее распространенных задач в области ИТ является поиск ин- 
формационных ресурсов (ИР) в Интернете, локальной сети либо на отдельном ком- 
пьютере, представленных в различных форматах (текст, графика, мультимедиа и т.д.), 
для решения той или иной интеллектуальной задачи, стоящей перед пользователем. 
Конечным результатом поиска может быть: 

1) обнаружение ИР (или набора ИР), удовлетворяющего заданным условиям; 

2) извлечение из ИР сведений, позволяющих выбрать нужный объект реаль- 
ного мира (примерами таких задач могут быть поиск специалистов, способных вы- 
полнить ту или иную работу; подбор экспертов для оценки какого-либо научного 
или технического проекта, выбор товара в системах е-коммерции; выбор подходящего 
курса в дистанционном обучении); 

3) извлечение из контента ИР правил или закономерностей, позволяющих осу- 
ществить логический вывод над имеющимися данными. 

По мере развития Интернета обостряется парадокс: вероятность присутствия 
необходимой информации в глобальном информационном пространстве растет, а 
вероятность ее нахождения — уменьшается. Это происходит потому, что наполнение 
\еЬ громадно по объему, очень разнородно, быстро обновляется, плохо поддается 
структуризации и управлению. Пользователь информационно-поисковых систем (ИПС), 
как правило, не является специалистом в области ИТ и вследствие этого может при- 
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менять только наиболее простые и интуитивно понятные средства формулирования 
своей информационной потребности. Формальный запрос к ИПС — попытка пользо- 
вателя формализовать свою информационную потребность и, к сожалению, не всегда 
удачная (либо вследствие низкой выразительной мощности языка создания запросов 
к ИПС, либо из-за низкой квалификации пользователя). Так, большинство пользова- 
телей, обращающихся даже к достаточно простым ИПС Интернета, используют только 
часть их возможностей — простые запросы, состоящие из 2-3 слов, и не применяют 
логические операторы и прочие механизмы расширенного поиска [1]. Кроме того, 
необходимо учитывать, что часть фактов и знаний уже имеются у пользователя, и 
нет необходимости предоставлять их ему повторно. Следовательно, поисковые меха- 
низмы должны оперировать информационными моделями пользователей, задач и ин- 
формационных ресурсов. 

Таким образом, проблема информационного поиска в \\еБ трансформируется в 
задачу управления знаниями в среде \еБ. 

Сегодня значительные усилия в этом направлении предприняты в рамках проекта 
Зетапис \еБ. Уже разработан ряд стандартов для представления знаний (О\!Т.), соз- 
дания метаописаний ИР (ВОР) и формирования запросов к ним (ЗРАВОГ.)). 

Зетапис \еБ представляет собой лишь надстройку над существующей сетью 
информационных ресурсов \еБ, облегчающую обработку информации на семан- 
тическом уровне (т.е. ее смысла) поисковыми системами и другими приложениями. 
Если раньше поисковые машины основное внимание уделяли глубине и способам ана- 
лиза текстовых данных, то в Зетапйс \!еБ основными элементами являются инфор- 
мационные объекты и соответствующие им метаданные. Например, информационный 
объект «Киев» обладает набором метахарактеристик, которые предоставляют данные о 
его географическом положении, численности населения и т.д. 


Постановка задачи 


Сегодня основная проблема, возникающая при поиске информации в Интернете, 
связана с фильтрацией результатов, полученных от различных ИПС, и отбором тех 
ИР, которые соответствуют реальным информационным потребностям пользователя. 
Для такого отбора необходимо формализовать представления пользователя об инте- 
ресующей его проблеме и разработать средства автоматизированного сопоставления 
этого описания с метаописаниями различных ИР. 


1 Онтологии как средство представления знаний 


Для успешного решения задачи поиска информации необходимо представить: 

— представления пользователя о знаниях той ПрО, которая его интересует, в 
некоторой форме, пригодной для компьютерной обработки; 

— описание проблемы, для которой пользователю нужны эти сведения; 

— требования пользователя к тем ИР, котрые могут удовлетворить его инфор- 
мационную потребность. 

Важно достигнуть интероперабельности знаний, т.е. того, чтобы знания, сформи- 
рованные при решении одной задачи, были пригодны при решении других проблем в 
различных работах ИС. Именно такой формой представления знаний является 
онтология — соглашение об общем использовании понятий, которое содержит средства 
представления предметных знаний и договоренности о методах соображений. Она 
может рассматриваться как определенное описание взгляда на мир в конкретной 
сфере интересов, который состоит из набора терминов и правил использования этих 
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терминов, которые ограничивают их значение в рамках конкретной ПрО [2]. Онто- 
логии позволяют формализовать знания пользователей о той Про, которая их интересует. 
При этом такие знания становятся доступны другим пользователям и могут приме- 
няться в других ИС. Онтологии, описывающие ПрО, могут потом использоваться 
для решения различных задач, стоящих перед пользователем. 

Онтология — это база знаний, описывающая факты, которые предполагаются 
всегда истинными в рамках определенного сообщества на основе общепринятого 
значения тезауруса. Она может использоваться как посредник: между пользователем 
и информационной системой или между членами сообщества, например, между поль- 
зователями некоторого корпоративного хранилища данных. 

Формальная модель онтологии О представляет собой упорядоченную тройку 
О=<Х,В,Е>, где Х - конечное множество концептов (понятий, терминов) предметной 
области, которую представляет онтология О; К -— конечное множество отношений 
между концептами заданной предметной области; Е — конечное множество функций 
интерпретации, заданных на концептах и отношениях онтологии О [3]. Поскольку 
при обращении к ИПС пользователь должен иметь возможность получить инфор- 
мацию, пертинентную его запросу, то ее поиск должен быть семантически ориентиро- 
ванным. Для этого средства поиска соответствующей запросу информации предлагается 
организовать на основе онтологии, содержащей описания семантики ресурсов. Онтоло- 
гии позволяют формально описать конкретные Про. 

Ряд авторов предлагают методы автоматического и автоматизированного постро- 
ения онтологий по естественноязыковым документам. В частности, в [4] на основании 
обзора ряда работ, в которых рассматривается моделирование ПрО в виде концепту- 
альной модели мира, включающей в себя описания базовых понятий, организованных в 
родовидовые деревья и совокупность связей между ними, предлагается использовать 
как синонимы понятия модели и онтологии Про. При этом эта концептуальная модель 
включает в себя описание объектов, понятий и отношений действительности. 

Формирование полного семантического представления текста выполняется сред- 
ствами глобального семантического анализа [5]. Однако задача формирования множеств 
выделенных в тексте понятий и семантических отношений модели является нетриви- 
альной и на практике реализуема только для узких и четко формализованных Про. 

При создании онтологий наибольшую сложность представляет формирование 
множества Е, так как этот процесс требует применения специальных навыков из области 
инженерии знаний и формальной логики. В то же время по трудоемкости основная 
работа по формированию онтологий приходится на формирование множества Х, 
причем эта работа доступна большинству специалистов произвольной предметной 
области. Несколько сложнее определить множество отношений В, которые надо 
использовать для моделирования ПрО, но в большинстве случаев можно исполь- 
зовать стандартные наборы из 10 — 20 базовых отношений («быть частью», «быть под- 
классом», «являться одинаковым» и т.д.). 

В связи с этим представляется целесообразным использовать для моделирования 
знаний пользователя о ПрО поиска с помощью частного случая онтологии — теза- 
уруса, построение которого относительно проще. До недавнего времени термины 
«онтология» и «тезаурус» использовались как синонимы, однако теперь в ИТ тезаурус 
чаще применяют для описания лексики в проекции на семантику, а онтологию — для 
моделирования семантики и прагматики в проекции на язык представления [6]. 

Как показывает анализ публикаций, достаточно четко установить взаимоотно- 
шение терминов «Тезаурус» и «Онтология» — сложная проблема в связи с расплыв- 
чатостью и почти полным сходством их интерпретации. Тезаурус из всего спектра 


464 «Искусственный интеллект» 32010 


Использование тезауруса предметной области... 5Г 


средств языка отражает только лексику: она задана в знаковом виде и относительно 
просто поддается систематизации. Тезаурус можно было бы представить как комплекс 
лингвистических знаний, включающий все составляющие языка от фонетики до рито- 
рической структуры текста и законов коммуникации. 


2 Тезаурус как средство моделирования Про 


Обычно тезаурус Т определяют как словарь, содержащий лексические единицы 
(ЛЕ) с явным указанием семантических связей между ними. 

Слово тезаурус происходит от греческого сокровищница, запас, клад. Термин 
«тезаурус» достаточно древнего происхождения. Впервые его применил в значении, 
близком сегодняшнему, еще в ХШ веке Б. Датини в энциклопедии «Книга о сокровище». 
Согласно «Современному словарю иностранных слов»: тезаурус — Т) словарь, в котором 
максимально полно представлены все слова языка с исчерпывающим перечнем при- 
меров их употребления в текстах; в полном объеме осуществим лишь для мертвых 
языков; 2) идеографический словарь, в котором показаны семантические отношения 
(синонимические, родо-видовые и др.) между лексическими единицами; 3) в инфор- 
матике — полный систематизированный набор данных о какой-либо области знаний, поз- 
воляющий человеку или вычислительной машине в ней ориентироваться. Тезаурус (согласно 
третьему определению) можно рассматривать как частный случай онтологии. Очевидно, 
что можно говорить о тезаурусе человечества как о сумме накопленных им знаний. Можно 
исследовать как тезаурусы отдельных специалистов, так и тезаурусы областей знания. 

Впервые тезаурус был использован в связи с вычислительными машинами в 
1954 г. А. Мастерман в области машинного перевода. Позднее при помощи тезаурусов 
устанавливалось соответствие между языком запросов пользователя и документами 
в информационно-поисковых системах. Но еще в начале 60-х гг. Ю.А. Шрейдер пред- 
лагал рассматривать тезаурус как систему знаний, отраженных языком, когда тезаурус 
становится интересным сам по себе, а не только как вспомогательный инструмент. 

Можно рассматривать тезаурус как модель терминологической системы. Термино- 
логическая система (ТС) — это сложная динамическая устойчивая система, элементами 
которой являются отобранные по определенным правилам лексические единицы 
какого-нибудь естественного языка, а структура изоморфна структуре логических связей 
между понятиями специальной области знаний и деятельности, а функция состоит в том, 
чтобы служить знаковой (языковой) моделью этой области знаний и деятельности [5]. 
Можно говорить о том, что ТС является отображением определенной Про. 


Тезаурус — это Т$ = (Т, в) ‚ где Т— множество терминов, а К — множество отношений 


между этими терминами. Множества Т и К конечны. 

Термин - это слово или словесный комплекс, соотносящийся с понятием опре- 
деленной организованной области познаний (науки, техники), вступающий в системные 
отношения с другими словами и словесными комплексами и образующее вместе с 
ними в любом отдельном случае и в определенное время замкнутую систему, отлича- 
ющуюся высокой информативностью, однозначностью, точностью и экспрессивной 
нейтральностью. Слово «термин» происходит от латинского «етттиз» — «граница». 
Множество терминов тезауруса Т соответствует множеству концептов Х онтологии О. 
Такие свойства терминов и ТС, как системность, устойчивость и регулярность свя- 
зей, отсутствие экспрессии, установка на объективность описания, делают возмож- 
ным моделирование ТС с помощью тезаурусов. Классификация понятий ПрО через 
набор слов, условно синонимичных и образующих класс условной эквивалентности, 
лежит в основе тезаурусов, используемых для информационного поиска. База знаний 
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(БЗ) — семантическая модель, описывающая структуру ПрО. В состав БЗ Про входят 
онтология ПрО и ее тезаурус. Они используют словарь терминов Про, устанавливая 
отношения между терминами и задавая правила их логического преобразования. Это 
позволяет отвечать на такие вопросы из этой области, ответы на которые в явном 
виде не присутствуют в БЗ. 

Большинство существующих ИПС имеют развитые средства контекстного поиска 
документов с учетом морфологической информации о словах. Однако в настоящее 
время очень незначительное число информационных систем предоставляют возмож- 
ность тематического поиска, например, поиска с использованием тезауруса. Каждое 
понятие в тезаурусе может объясняться через набор других понятий, что приводит к 
появлению семантического поля. Фактически тезаурус пользователя — потребителя 
информации -— это вербализованная совокупность его представлений об исследуемой 
ПРО (рис.1). Основная цель разработки информационно-поисковых тезаурусов — 
использование их единиц (дескрипторов) для описания основных тем документов в 
процессе ручного индексирования. 
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Рисунок 1 — Представление тезауруса ПрО «Искусственный интеллект» в Ргоеое 


Тезаурус может стать эффективным инструментом формирования запросов к 
универсальным ПМ Пщегпев, для поиска информации в локальной сети, на отдельном 
компьютере и т.д. Технология полнотекстового поиска является неотъемлемой состав- 
ляющей таких современных и перспективных ИТ, как: системы управления докумен- 
тами (Поситеп тапасетепё зубет, ОМ$), технологии групповой работы над 
документами (этоиру\’аге), технологии поиска в Пиегте/шёапее. Это позволит сущес- 
твенно повысить качество информационного поиска в специализированной темати- 
ческой области при выполнении следующих условий: 

— тезаурус отражает терминологию достаточно узкой научной/тредметной области; 

— в тезаурусе используются различные семантические отношения; 

— тезаурус независим от поисковой машины. 

Четко описать терминологию можно при помощи тезауруса с набором сильно 
дифференцированных семантических отношений [4], [7], т.е. использовать не только 
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универсальные (например, «род — вид», «часть — целое» и т.д.), но и специфические 
для конкретной ПрО отношения, несущие значительную смысловую нагрузку. 

Кроме непосредственных характеристик тезауруса — количества терминов, коли- 
чества типов связей и количества реализованных связей, важное значение имеют 
также их производные — коэффициент связности и количество связных компонент 
сети. Коэффициент связности показывает, насколько семантическая сеть тезауруса 
отличается от полного графа (у полного графа любые две вершины смежны, т.е. коэф- 
фициент связности равен 1). Для связного графа вычисляется число связности графа — 
называется наименьшее число вершин, удаление которых приводит к несвязному 
или одновершинному графу. Анализ этих характеристик позволяет оценить качество 
тезауруса и сравнивать различные тезаурусы, созданные для одной и той же Про. 

Основные технологические фазы создания тезауруса: 

1. Выделение лексических единиц, т.е. формирование словаря (глоссария) Т. 

2. Разработка набора семантических связей. 

3. Актуализация связей — установление связей между терминами. 

При актуализации семантических связей между терминами тезауруса можно 
использовать знания экспертов, а также документы, предназначенные как для 
фиксации структуры знаний ПрО (словари, классификаторы и т.д.), так и отражаю- 
щие сами знания ПрО (рефераты, статьи, монографии и т.д.). 


3 Использование тезаурусов 
для семантической обработки информации 


Чтобы отфильтровать результаты работы внешней ИПС и получить только те 
ИР, которые пертинентны информационным потребностям пользователя, необходимо 
предварительно сформировать тезаурус ПрО, интересующей пользователя, и 
тезаурусы этих ИР, а затем сравнить эти тезаурусы. Построение тезаурусов для инфор- 
мационных ресурсов выполняется программой автоматически на основе лексичес- 
кого анализа соответствующего текста. 

Тезаурус используют также для измерения количества информации в ИР на 
семантическом уровне, что позволяет связать семантические свойства информации с 
возможностью пользователя воспринимать (потреблять, использовать) сообщения, 
которые поступили по его запросу. Здесь возможны некоторые предельные случаи, 
например, если количество семантической информации в сообщении равняется нулю, 
тогда: 1) пользователь вообще не понимает информации; 2) пользователь все знает, а 
та информация, которая поступила, ему не нужна. Примером первого предельного 
случая может быть текст на неизвестном пользователю языке, а второго — таблица умно- 
жения для студента. 

Будем считать, что тезаурус ПрО - это совокупность терминов, знакомых поль- 
зователю ИПС. Это термины, содержащиеся в ИР, которые были найдены ранее по 
запросам пользователя и были признаны им относящимися к этой Про. 

Разработка тезауруса для автоматической оценки семантического количества 
информации в ИР характеризуется, прежде всего, необходимостью описания значи- 
тельно большего количества терминов (слов и словосочетаний), встречающихся в текстах 
данной Про. Тезаурус должен включать не только термины, которые представляют 
важные понятия в текстах данной предметной области, но также охватывать широ- 
кий круг более специфических терминов, обнаружение которых в конкретном тексте 
сделает этот текст релевантным запросу по понятиям более высокого уровня. В резуль- 
тате сопоставления контента ИР с тезаурусом пользователя создается понятийный 
индекс ИР, в котором указывается, какие дескрипторы тезауруса обнаружены. 
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4 Алгоритм определения пертинентности ИР 
информационным потребностям пользователя 


4.1 Формирование тезауруса Про, интересующей пользователя 


На первом этапе пользователь должен создать тезаурус, моделирующий инте- 
ресующую его ПрО, в котором содержатся основные термины ПРО и связи между ними, 
и сохранить ее. Для этого можно применить методологию разработки онтологи- 
ческих моделей — стандарт ТОЕЕ5 семейства ШЕЕ (ум 14еЁсот ЛОЕЕ5.В ит]. Согласно 
методологии ШЕР5, построение тезауруса ПрО состоит из пяти основных действий: 

1. Изучение и систематизирование начальных условий -— цели и контекст разра- 
ботки тезауруса, определение границ ПрО, интересующей пользователя. 

2. Сбор и накапливание данных — отбор ИР, относящихся к данной Про. 

3. Анализ данных - изучение отобранных ИР, формирование словаря терминов 
ПрО, содержащихся в отобранных ИР. 

4. Начальное развитие тезауруса - установление связей между терминами Про 
(путем формирования пользователем или выбора среди существующих онтологии 
ПрО, например, с помощью Рго{6 26), из которой затем извлекаются базовые термины 
ПРО и связи между ними); альтернативным способом построения тезауруса является 
непосредственный ввод терминов тезауруса пользователем. 

5. Уточнение и утверждение тезауруса — анализ пользователем полученного 
тезауруса и его корректирование. 


4.2 Формирование тезауруса информационного ресурса 


В связи с необходимостью анализа большого количества ИР, мы предлагаем 
использовать упрощенный алгоритм построения их тезауруса: по полному перечню 
слов, используемых в ИР, строится словарь терминов, из которого отбрасываются 
стоп-слова, содержащиеся в специально разработанном пользователем списке. Этот 
алгоритм применяется только для тех ИР, которые не сопровождаются метаописаниями. 
В противном случае из метаописаний (в формате ВПЕ или ОУ.) извлекаются термины 
тезауруса и связи между ними, которые дополняют построенный по контенту ИР словарь. 


4.3 Фильтрация ИР на основе тезаурусов 


Алгоритм фильтрации результатов запроса пользователя к внешней ИПС Интернета: 

1. Пользователь вводит запрос, идентифицируя свою информационную потреб- 
ность с помощью ключевых слов. 

2. Запрос передается внешней ИПС, от которой получают в соответствии с 
запросом результаты его выполнения — п ссылок на ИР и их кратких описаний 


[= )ВеЁ „О; ]=Ъ п. Здесь ВеЁ, — Рйр-адрес соответствующего ИР, найденного ИПС, а 
4; — информация об этом ИР, которую ИПС предоставляет пользователю в ответ на запрос. 


3. Если множество [ не пусто, т.е. ИПС найден в ответ на запрос более чем один 
ИР (п>1), то нужно установить порядок, в каком предлагать пользователю сведения о 


найденных ИР. Тогда для всех ИР из этого множества [= {Ве ЕВ и ]=Ьп формиру- 


ются их упрощенные тезаурусы Т$(ИР,) = (т, , 2), ]= пи соответствующие им словари 
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терминов Т, = | о } ]=11,\=Ъа,;. , - это слова, которые используются в инфор- 


Л» 
мации о ]-м ИР, найденном ИПС, т.е. в В »]=Ьп. а, ]=ЬЪп — это количество различных 


слов, используемых в описании О,,]=1, п. Если слова в описании повторяются, то в 
словаре терминов они фиксируются только один раз. 

4. Затем пользователь формирует тезаурус интересующей его ПрО (или указы- 
вает на ранее сформированный тезаурус) Тзпро и соответствующий ему словарь 


терминов этой ПрО Ти = Ц } т =ЪА. Тньо — это множество, состоящее из т терми- 


нов, относящихся к интересующей пользователя ПрО. Это множество строится анало- 
гично словарю терминов ИР и обычно формируется как объединение словарей терминов, 
содержащихся в документах, которые пользователь нашел ранее и посчитал реле- 
вантными интересующей его ПрО (как в их контенте, так и в метаописаниях). 


5. Производится сравнение Тнро и Т.,} =1,п ‚ высчитывается коэффициент их 
9 №; 
близости К =» УЕ. { 


2°т 


в = та, м =, у, где 


в 0, если НБ. (1). 
если = 1. 


ш=\=1 


Коэффициент (1) представляет собой количество терминов, которые встретились 
как в тезаурусе ИР, так и в тезаурусе Про. 


6. Найденные ИР упорядочиваются в зависимости от значений К,, пользова- 


телю предъявляются в первую очередь те ИР, которые имеют наиболее высокий коэф- 
фициент близости к Про. 

При использовании коэффициента (1) возникает следующая проблема: слова, 
соответствующие одному термину, но являющиеся, например, различными слово- 
формами, синонимами или переводами на различные языки, обрабатываются как 
разные термины. Поэтому представляется целесообразным использовать онтологию 
ПРО и выделять группы слов, соответствующих одному термину. Для этого поль- 
зователь должен связать элементы словаря терминов терауруса ПрО с одним из тер- 


минов онтологии ПрО О = <Х,БВ,Е>, т.е. У, ЕТпо, т=Ъа = задать функцию 2, )ЕХ. 
Затем для вычисления коэффициента близости К° эта функция используется следу- 
ющим образом: 


а Е 0, если 2({.) = 2(1 
КУ, там =, ‚ где Ее, )= 5 1) 5 2) 


если 8(1 ) = (6) 

Коэффициент (2) представляет собой количество терминов, которые встре- 
тились как в тезаурусе ИР, так и в тезаурусе Про, и при этом ссылаются на один и 
тот же термин онтологии ПрО. По сравнению с коэффициентом (1) коэффициент (2) 
позволяет использовать меньший объем документов для построения тезауруса Про, 
но требует большее время для вычислений. 


(2) 


5 Программная реализация 


Предложенные выше методы реализованы в интеллектуальной поисковой сис- 
темы МАИПС (авт. свидетельство № 32015 и № 32068 от 13.02.2010), которая 
отвечает ряду требований к приложениям Зетапис \УеБ: 
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1. Для описания ПрО используются онтологии в формате О\!Т, и тезаурусы, 
для представления которых используется ХМГ. 

2. Результаты, получаемые от внешней ИПС, содержат ссылки на ИР, предос- 
тавляемые различными провайдерами. 

3. МАИПС осуществляет поиск и текстовых, и мультимедийных ИР. 


6 Интеллектуальные методы построения тезаурусов Про 


При создании тезауруса ПрО, которая интересует пользователя ИПС, необхо- 
димо явно указать основные понятия Про и связи между ними. К сожалению, большин- 
ству пользователей достаточно сложно это сделать (даже имея соответствующие 
знания и применяя их в своей деятельности). На первом этапе формирования теза- 
уруса пользователь может выбрать одно из следующих решений: 

— самостоятельно построить с помощью одного из редакторов онтологий онто- 
логическое описание области его информационных интересов; 

— найти (например, в Интернете) какую-либо онтологию, представленную на языке 
ОУ\Т, которую описывает ПрО, близкую к области его информационных интересов; 

— сформировать множество понятий ПрО, которое содержит наиболее харак- 
терные слова и словосочетания, встречающиеся в интересующих его ИР. 

Важно определить, какие именно связи между элементами ПрО являются сущес- 
твенными (и их, следовательно, необходимо включить в систему). Не все сущес- 
твенные связи между терминами ПрО могут быть очевидны пользователю, он может 
воспользоваться для их нахождения методами индуктивного вывода. 

Существуют независимые подходы к реализации подобных методов: 103, АСГ$, 
САВТ и т.д. Наиболее интересным, в связи со спецификой проводимой работы, ока- 
зался алгоритм ШЗ [8], который специально разработан для извлечения ценной 
информации из больших объемов слабо структурированных данных. При работе 
этого алгоритма время вычислений зависит линейно от числа введенных примеров, 
числа атрибутов, используемых для описания примеров, и числа узлов в строящемся 
дереве решений. Это качество отличает его от таких известных алгоритмов постро- 
ения деревьев решений, как ПМРОСЕ, ЗРВООТЕВ, КОТН-Р, в которых усилия, требу- 
ющиеся для решения задачи, резко возрастают вместе со сложностью задачи. 

Если методы, подобные МГУА (метод группового учета элементов), предназ- 
начены для нахождения закономерностей по набору количественных измерений 
параметров и полученному по ним результату, то методы, подобные ШЗ и его 
вариациям (С4.5, 14 и т.д.), предназначены для обобщения опыта экспериментов, 
параметры и результаты которых описаны через качественные оценки (лингвис- 
тические переменные). В большинстве случаев между их значениями невозможно 
установить даже относительное упорядочение (например, различные симптомы и 
диагнозы пациентов). К таким задачам относится и задача поиска информации в 
Интернете. Например, такой существенный параметр ИР, как язык, не может быть 
описан количественно. ШЗ принадлежит к невозрастающим алгоритмам, то есть при 
добавлении к набору классифицированных примеров новых нужно обрабатывать 
снова как старые, так и новые примеры. 

Предлагается использовать /03т [9] —- модификацию ОЗ для произвольного 
(конечного) количества решений. Он также принадлежит к невозрастающим алгорит- 
мам. В данном случае примерами обучающей выборки являются ИР, полученные 
ранее пользователем в результате запросов к ИПС. Параметрами, по которым они описы- 
ваются, являются свойства ИР (язык, время создания, размер, формат, право доступа 
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и т.д.), а также термины тезауруса пользователя. Значения, соответствующие терми- 
нам тезауруса, — «Термин отсутствует в ИР», «Термин встречается в ИР редко», «Термин 
встречается в ИР часто». В качестве результата используется оценка, данная пользо- 
вателю найденному ИР (качественная оценка, имеющая два и более значений). 

На вход алгоритма поступает обучающая выборка Н - набор из п классифи- 
цированных (получивших одну из возможных оценок) примеров одинаковой размер- 


ности. Н= ® ы=Ьа. Каждый пример из выборки — упорядоченная последо- 


вательность значений $ атрибутов и результирующего атрибута В; = | =рп. 


Значения атрибутов принадлежат конечным множествам: а, Е А,,/=Ьи,и=Ъп,, 


г, ЕК,у=Ьи,. Если обучающая выборка содержит примеры, в которых все значения 


атрибутов одинаковы, а решения различны, то введенная информация недостаточна 
для построения классификационного правила. Если множество примеров пустое, то 
можно произвольно связать его с любым решением. Если все примеры относятся к 
одному классу, строится один лист дерева решений, связанный с этим классом. В про- 
тивном случае необходимо выбрать один из атрибутов и разделить множество атрибутов 
на подмножества в зависимости от значения этого атрибута и применить алгоритм к 
каждому из полученных подмножеств. 

На каждом шаге работы алгоритма вычисляется, какой атрибут т несет наиболь- 
шее количество информации о результате. 


2 С(а, ЕА,,г, ЕК) 
С к = Пах{С,,2=1,$} = шах{>` >, ! 
ЕЕ Ч, 


}, (3) 


где С(х,у) — количество информации С(х,у)= »` У`р(х,у)*1е р(х,у), р(хУ) — вероят- 
р 


ность одновременного наступления событий х и у, 4» — стоимость получения зна- 
чения т-го атрибута. 

В результате работы алгоритма ШО3т формируется дерево решений, в котором 
каждый лист связан с одним из решений, каждый узел характеризуется именем 
одного из атрибутов, а выходящие из такого узла ветви — значениями этого атрибута. 
Такое дерево решений позволяет ИПС по параметрам вновь найденного ИР прогно- 
зировать, как именно оценит его пользователь, и предлагать пользователю в первую 
очередь те ИР, которые соответствуют его индивидуальным предпочтениям. Так как 
точные значения вероятностей событий из обучающей выборки неизвестны, то они 
аппроксимируются на основе рассматриваемого множества примеров. 


Выводы 


Предложенный в работе подход к поиску информации в Интернете основы- 
вается на использовании знаний пользователя о ПрО, характеризующей его инфор- 
мационные потребности. Пользователь может явно указывать интересующие его терми- 
ны и получать те информационные ресурсы, которые соответствуют его запросу, но 
содержат также и эти термины. Такой подход ориентирован на пользователя с отно- 
сительно стабильными информационными потребностями, не являющегося специ- 
алистом в области информационных технологий, и позволяет пользователю избежать 
рутинной работы по фильтрации результатов обращения к ИПС. 
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А.Я. Гладун, Ю.В. Рогушина 

Використання тезауруса предметно! област! як 1нструмента представлення знань для 
шдвищення ефективност! проблемно-ор!ентованого пошуку у Уеь 

Для того щоб шдвищити релевантнасть пошуку 1нформаци у \еБ, пропонуеться використовувати 
знання про 1нформащйн! потреби користувача, в:дображен! як в опис! 1нтелектуально! задачи, що постае 
перед ним, так 1 в Його тезаурус1. Це дозволяе робити припущення про тематичну близьюсть знай- 
дених у \!еБ 1нформашйних ресурс\в до те! предметно! област, що пертинентна проблем! користувача. 


Апаюой) СЛа4ип, Тийа Когизйта 

О5е оЁ Фе Твезаиги$ а5 а Тоо| оЁ Кпощедое Вергезетайноп ш Пиргоушо оЁ фе ЕЙесйуепе$$ о? 
Ргоет-Вазеа У\еь Зеагсв 

ш огдег ю пиргоуе фе г@еуапсе оЁ Фе \!еб шЮгтаНоп гейлеуа! Фе Кпо\Ле4дее абоий изегз”\ИзсЬ 1$ 
шЮгппаНоп пеед$ геЙесе4 ш Фе дезсирНоп оЁ зоте иеШеет рго ет апа Кезаига$ 15 ргорозе4 ю пзе. 
Г аПо\у$ ю шаКе Фе аззитрноп$ абойё Фетайс ргохиайу оЁ \!еб шЮюгтаНоп гезоигсе$ №0 фе 4отат 
регатеп ю изег’$ ргоЫет. 


Статья поступила в редакцию 28.05.2010. 
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